package utils;

import com.alibaba.fastjson.JSON;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;

/**
 * @author sunzhihao2
 * @date 16:18 2018/6/7
 */
public class HtmlUtil {
    public static String[] parseHtml(String entity){
        Document doc = Jsoup.parse(entity);
        Elements elementsTemp = null;
        Elements elements = doc.getElementsByAttributeValue("class", "threecate fl");
        if (elements.isEmpty()){
            //只有二级行业，否则有三级行业
            elements = doc.getElementsByAttributeValue("class", "threecate");
        }
        //解析出“家用电器 -- 白色家电 -- 小家电 （共<strong>21</strong>家）”
        //有的股票不存在分类
        if (!elements.isEmpty()){

            elementsTemp = elements.get(0).getElementsByAttributeValue("class","tip f14");
            String valueTemp = elementsTemp.get(0).text();
            //System.out.println(valueTemp);
            //提取成String[] 三级行业或二级行业
            return parseForStatus(valueTemp);
        }

        return null;
    }

    public static String[] parseForStatus(String valueTemp){
        //先删掉（）
        valueTemp = valueTemp.replaceAll("（.*?）","").trim();
        //再分割，提取二级或三级行业
        String[] values = valueTemp.split(" -- ");

        System.out.println(JSON.toJSONString(values));

        return values;
    }

}
